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PROCEDE ET DISPOSITIF DE CODAGE AUDIO 

La presente invention concerne le domaine du codage des signaux 
audio. Elle s'applique en particulier, mais non exclusivement, au codage de la 
parole, en bande etroite ou en bande elargie. dans diverses gammes de debit 
5 de codage. 

La conception d'un codec audio vise principalement a fournir un bon 
comprnmis pnfrp Ip dphit du flnv tmnsmis par Ip r-nrleur fit la qualitR rin signal 
audio que le decodeur est capable de reconstruire a partir de ce flux. 

Dans cette optique. il a notamment ete developpe des families de 

10 codeurs reposant sur une analyse du signal audio dans le domaine spectral : le 
codeur estime une frequence fondamentale du signal, representant sa hauteur 
tonale (« pitch »). et Tanalyse spectrale consiste a determiner des parametres 
representant la structure harmonique du signal aux frequences qui sont des 
multiples entiers de cette frequence fondamentale. Une modelisation de la 

15 composante non-harmonique. ou non-voisee, peut egalement etre effectuee 
dans le domaine spectral. Les parametres transmis au decodeur representent 
typiquement le module du spectre des composantes voisees et non-voisees. II 
s'y ajoute des informations representant soit des decisions voise/non-voise 
relatives a differentes portions de spectre, soit des informations sur la 

20 probability de voisement du signal, permettant au decodeur de determiner dans 
quelles portions du spectre il doit utiliser la composante voisee ou la 
composante non-voisee. 

Ces families de codeurs comprennent les codeurs du type MBE 
(« Multi-Band Excitation »), ou encore les codeurs de type STC (« Sinusoidal 

25 Transform Coder »). A titre de reference, on peut citer les brevets US 

4 856 068, 4 885 790. 4 937 873. 5 054 072. 5 081 681, 5 195 166, 5 216 747, 
5226 084. 5226 108. 5 247 579. 5 473 727, 5517511. 5630 011. 5630 012. 

5 649 050. 5 651 093. 5 664 051 , 5 664 052. 5 684 926. 5 701 390. 5 71 5 365. 
5 749 065. 5 752 222. 5 765 127. 5 774 837 et 5 890 108. 

30 Un but de la presente invention est de permettre d'ameliorer la 

modelisation du module du spectre du signal, dans un schema de codage a 
analyse dans le domaine spectral. 

U invention propose ainsi un precede de codage d'un signal audio, 
dans lequel on estime une frequence fondamentale du signal audio, on 

35 determine un spectre du signal audio par une transformee dans le domaine 
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frequentiel d'une trame du signal audio, et on inclut dans un flux numerique de 
sortie des donnees de codage d'une composante harmonique du signal audio, 
comprenant des donnees representatives d' amplitudes spectrales associees a 
des frequences multiples de la frequence fondamentale. Selon I'invention. 
5 I" amplitude spectrale associee a une desdites frequences multiples de la 
frequence fondamentale est un maximum local du module du spectre au 

vnisinaoe de ladite frequence multiple. =_=^= 

L' invention propose egalement un codeur audio comprenant des 
moyens pour la mise en oeuvre du precede ci-dessus. 

10 D'autres particularites et avantages de la presents invention 

apparaitront dans la description ci-apres d'exemples de realisation non 
limitatifs, en reference aux dessins annexes, dans lesquels : 

- la figure 1 est un schema synoptique d'un codeur audio selon I'invention ; 

- les figures 2 et 3 sont des diagrammes illustrant la formation des frames 
15 de signal audio dans le codeur de la figure 1 ; 

- les figures 4 et 5 sont des graphiques montrant un example de spectre 
du signal audio et illustrant I'extraction des enveloppes superieure et 
inferieure de ce spectre ; 

- la figure 6 est un schema synoptique d'un exemple de moyens de 
20 quantification utilisables dans le codeur de la figure 1 ; 

- la figure 7 est un schema synoptique de moyens utilisables pour extraire 
des parametres se rapportant a la phase de la composante non- 
harmonique dans une variante du codeur de la figure 1 ; 

- la figure 8 est un schema synoptique d'un decodeur audio correspondant 
25 au codeur de la figure 1 ; 

- la figure 9 est un organigramme d'un exemple de procedure de lissage 
de coefficients spectraux et d' extraction de phases minimales mise en 
oeuvre dans le decodeur de la figure 8 ; 

- la figure 10 est un schema synoptique de modules d' analyse et de 
30 mixage spectral de composantes harmonique et non-harmonique du 

signal audio ; 

- les figures 11 a 13 sont des graphiques montrant des exemples de 
fonctions non-lineaires utilisables dans le module d' analyse de la figure 
10; 
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- les figures 14 et 15 sont des diagrammes illustrant une fagon de proceder 
a la synthese temporelle des trames de signal dans le decodeur de la 
figure 8 ; 

- les figures 16 et 17 sont des graphiques montrant des fonctions de 
fenetrage utilisables dans la synthese des trames suivant les figures 14 
et 15 ; 

- les figures 18 et 19 sont des schemas synoptiques de moyens 
d' interpolation utilisables dans une vanante ae reaiisaiion au cx)aeurei au 
decodeur ; 

- la figure 20 est un schema synoptique de moyens d' interpolation 
utilisables dans une autre variante de realisation du codeur ; 

- les figures 21 et 22 sont des diagrammes illustrant une autre fagon de 
proceder a la synthese temporelle des trames de signal dans le decodeur 
de la figure 8, a Taide d'une interpolation de parametres ; 

- les figures 23 a 25 sont des schemas synoptiques de variantes de 
moyens de post-traitement des coefficients cepstraux representant 
Tenveloppe superieure du spectre du signal dans le codeur de la figure 
1 ;et 

- la figure 26 est un schema synoptique partiel d'un decodeur associe a un 
codeur selon la figure 25. 

Le codeur et le decodeur decrits ci-apres sont des circuits numeriques 
qui peuvent, comme il est usuel dans le domaine du traitement des signaux 
audio, etre realises par programmation d'un processeur de signal numerique 
(DSP) ou d'un circuit integre d'application specifique (ASIC). 

Le codeur audio represente sur la figure 1 traite un signal audio 
d'entree x qui, dans Texemple non-limitatif considere ci-apres, est un signal de 
parole. Le signal x est disponible sous forme numerique, par exemple a une 
frequence d'echantillonnage de 8 kHz. II est par exemple delivre par un 
convertisseur analogique-numerique traitant le signal de sortie amplifie tfun 
microphone. Le signal d' entree x peut egalement etre forme a partir tf une autre 
version, analogique ou numerique, codee ou non, du signal de parole. 

Le codeur comprend un module 1 qui forme des trames successives 
de signal audio pour les differents traitements effectues, et un multiplexeur de 
sortie 6 qui delivre un flux de sortie ^ contenant pour chaque trame des jeux 
de parametres de quantification a partir desquels un decodeur sera capable de 
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synthetiser une version decx>dee du signal audio. 

La structure des trames est illustree par les figures 2 et 3. Chaque 
trame 2 est composee d'un nombre N d'echantillons consecutifs du signal 
audio X. Les trames successives presentent des decalages temporels mutuels 
correspondant a M echantillons, de sorte que leur recouvrement est de 
L = N-M echantillons du signaL Dans I'exemple considere, ou N=256, 
M = 160 et L = 96. la duree des trames 2 est de Nlf^ = 32 ms. et une trame est 



formee toutes les MIFq = 20 ms. 

De fagon classique, le module 1 multiplie les echantillons de chaque 
10 trame 2 par une fonction de fenetrage f^. de preference choisie pour ses 
bonnes proprietes spectrales. Les echantillons x(i) de la trame etant numerotes 
de i = 0 a i = N-1. la fenetre d'analyse peut ainsi etre une fenetre de 

Hamming, d* expression : 

fA(i) = 0,54 + 0,46.cos|^2Ti '"^^^^^^^ j (1 ) 

15 ou une fen§tre de Manning d' expression : 

OU encore une fen§tre de Kaiser, d' expression : 



Ir 



i-(N-1)/2^^ 



(3) 



lo(<x) 

ou a est un coefficient par exemple egal a 6, et lo(.) designe la fonction de 

20 Bessel d'indice 0. 

Le codeur de la figure 1 procede a une analyse du signal audio dans le 
domaine spectral. II comporte un module 3 qui calcule la transformee de 
Fourier rapide (TFR) de chaque trame de signal. La trame de signal est mise 
en forme avant d'etre soumise au module de TFR 3 : le module 1 lui adjoint 

25 N = 256 echantillons a zero afin d'obtenir la resolution maximale de la 
transformee de Fourier, et il effectue d' autre part une permutation circulaire des 
2N = 512 echantillons afin de compenser les effets de phase resultant de la 
fenetre d'analyse. Cette modification de la trame est illustree par la figure 3. La 
trame dont on calcule la transformee de Fourier rapide sur 2N = 512 points 

30 commence par les N/2 = 128 derniers echantillons ponderes de la trame. suivis 



par les N = 256 echantillons a zero, et se termine par les N/2 = 128 premiers 
echantillons ponderes de la trame. 

Le module de TFR 3 obtient le spectre du signal pour chaque trame. 
dont le module et la phase sont respectivement notes |X| et (p^. ou |X(i)| et 

<Px(i) pour les index de frequence 1 = 0 a i = 2N-1 (grace a la symetrie de la 

transformee de Fourier et des trames, on peut se limiter aux valeurs pour 

0 ^ i g rj) . 

Un detecteur de frequence fondamentale 4 estime pour chaque trame 
de signal une valeur de la frequence fondamentale Fq. Le detecteur 4 peut 

appliquer toute methode connue d'analyse du signal de parole de la trame pour 
estimer la frequence fondamentale Fq, par exemple une methode bases sur la 

fonction autocorrelation ou la fonction AMDF, eventuellement precedee d'un 
module de blanchiment par prediction lineaire. L'estimation peut egalement 
etre effectuee dans le domaine spectral ou dans le domaine cepstral. Une 
autre possibilite est tfevaluer les intervalles de temps entre les ruptures 
consecutives du signal de parole attribuables a des fermetures de la glotte du 
locuteur intervenant pendant la duree de la trame. Des methodes bien connues 
utilisables pour detecter de telles micro-ruptures sont decrites dans les articles 
suivants : M. Basseville et al., « Sequential detection of abrupt changes in 
spectral characteristics of digital signals » (IEEE Trans, on Information Theory, 
1983, Vol. IT-29, n** 5, pages 708-723) ; R. Andre-Obrecht, « A new statistical 
approach for the automatic segmentation of continuous speech signals » (IEEE 
Trans, on Acous.. Speech and Sig. Proc, Vol. 36, N°1, janvier 1988); et 
C. MURGIA et al,, « An algorithm for the estimation of glottal closure instants 
using the sequential detection of abrupt changes in speech signals » (Signal 
Processing VII, 1994. pages 1685-1688). 

La frequence fondamentale estimee Fq fait Tobjet tfune quantification, 

par exemple scalaire, par un module 5, qui fournit au multiplexeur de sortie 6 
un index iF de quantification de la frequence fondamentale pour chaque trame 
du signal. 

Le codeur utilise des modelisations parametriques cepstrales pour 
representer une enveloppe superieure et une enveloppe inferieure du spectre 
du signal audio. La premiere etape de la transformation cepstrale consiste a 
appliquer au module du spectre du signal une fonction de compression 
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spectrale, qui peut etre une fonction logarithmique ou en racine. Le module 8 
du codeur opere ainsi, pour chaque valeur X(i) du spectre du signal (0 < i < N), 
la transformation suivante : 

LX(i) = Log(|X(i)|) (4) 
dans le cas d'une compression logarithmique ou 

LX(i) = |X(if (5) 



dans le cas d'une compression en racine. y etant un exposant compris entre 0 
et1. 

Le spectre comprlme LX du signal audio est traite par un module 9 qui 
extrait des amplitudes spectrales associees aux harmoniques du signal 
correspondant aux multiples de la frequence fondamentale estimee FO. Ces 
amplitudes sont ensuite interpolees par un module 10 afin d'obtenir une 
enveloppe superieure comprimee notee LX_sup. 

II est a noter que la compression spectrale pourrait de fagon 
equivalente etre effectuee apres la determination des annplitudes associees 
aux harmoniques. Elle pourrait egalement etre effectuee apres I' interpolation, 
ce qui ne ferait que modifier la forme des fonctions d' interpolation. 

Le module 9 d'extraction des maxima tient compte de I'eventuelle 
variation de la frequence fondamentale sur la trame d' analyse, des erreurs que 
peut commettre le detecteur 4, ainsi que des imprecisions liees au caractere 
discret de I'echantillonnage en frequence. Pour cela, la recherche des 
amplitudes des pics spectraux ne consiste pas simplement a prendre les 
valeurs LX(i) correspondant aux index i tels que i.Fe/2N soit la frequence la 
plus proche d'une harmonique de frequence k.Fo (k > 1). L' amplitude spectrale 
retenue pour une harmonique d'ordre k est un maximum local du module du 
spectre au voisinage de la frequence k.Fo (cette amplitude est obtenue 
directement sous forme comprimee lorsque la compression spectrale 8 est 
effectuee avant 1' extraction des maxima 9). 

Les figures 4 et 5 montrent un exemple de forme du spectre comprime 
LX, ou on voit que les amplitudes maximales des pics harmoniques ne 
coincident pas necessairement avec les amplitudes correspondant aux 
multiples entiers de la frequence fondamentale estimee Fq. Les flancs des pics 
etant assez raides, une petite erreur de positionnement de la frequence 
fondamentale Fg. amplifiee par I'indice d' harmonique k, peut distordre 



o 



o 



fortement I'enveloppe superieure estimee du spectre et provoquer une 
mauvaise modelisation de la structure formantique du signal. Par exemple, 
prendre directement I'amplitude spectrale pour la frequence 3.Fq dans le cas 
des figures 4 et 5 produirait une erreur importante dans I'extraction de 
5 I'enveloppe superieure au voisinage de Tharmonique d'ordre k = 3, alors qu'il 
s'agit d'une zone energetiquement importante dans I'exemple dessine. En 
^ff^^t,,^r.i 1'inforpr.iatinn a partir riu veritable maximum, on evite ce genre 
d' erreur d' estimation de i'enveloppe superieure. 

Dans I'exemple represents sur la figure 4, I* interpolation est effectuee 
10 entre des points dont I'abscisse est la frequence correspondant au maximum 
de I'amplitude d'un pic spectral, et dont I'ordonnee est ce maximum, avant ou 
apres compression. 

L' interpolation effectuee pour caiculer I'enveloppe superieure LX_sup 
est une simple interpolation lineaire. Bien entendu une autre forme 
15 d'interpolation pourrait etre utilisee (par exemple polynomiale ou spline). 

Dans la variante preferee representee sur la figure 5, 1' Interpolation est 
effectuee entre des points dont I'abscisse est une frequence K-Fq multiple de la 
frequence fondamentale (en fait la frequence la plus proche dans le spectre 
discret) et dont I'ordonnee est I'amplitude maximale. avant ou apres 
20 compression, du spectre au voisinage de cette frequence multiple. 

En comparant les figures 4 et 5, on peut voir que le mode d' extraction 
selon la figure 5. qui repositionne les pics sur les frequences harmoniques. 
Q conduit a une meilleure precision sur I'amplitude des pics que le decodeur 

attribuera aux frequences multiples de la frequence fondamentale. II peut se 
25 produire un leger deplacement en frequence de la position de ces pics, ce qui 
n'est pas perceptuellement tres important et n'est d'ailleurs pas evite non plus 
dans le cas de la figure 4. Dans le cas de la figure 4. les points d'ancrage pour 
r interpolation sont confondus avec les sommets des pics harmoniques. Dans le 
cas de la figure 5, on impose que ces points d'ancrage se trouvent precisement 
30 aux frequences multiples de la frequence fondamentale, leurs amplitudes 
correspondant a celles des pics. 

L'intervalle de recherche du maximum d'amplitude associe a une 
harmonique de rang k est centre sur 1' index i de la frequence de la TFR la plus 

, ou [a J designe rentier egal ou 



proche de k.Fg, c'est-a-dire i = 



2Nk^ + 4 
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immediatement inferieur au nombre a. La largeur de cet intervene de recherche 
depend de la frequence d'echantillonnage F^. de la taille 2N de la TFR et de la 
gamme de variation possible de la frequence fondamentale. Cette largeur est 
typlquement de I'ordre d'une dizaine de frequences avec les exemples de 
valeurs precedemment consideres. On peut la rendre reglable en fonction de la 
valeur Fq de la frequence fondamentale et du numero k de I'harmonique. 
Ann damel i d ^ ^/- la resoiuuun ddds ies bat^byb fn^tqum icBb yi 



representer plus fidelement les amplitudes des harmoniques dans cette zone, 
une distorsion non-lineaire de I'echelle des frequences est operee sur 
I'enveloppe superieure comprimee par un module 12 avant que le module 13 
effectue la transformee de Fourier rapide. inverse (TFRI) fournissant les 
coefficients cepstraux cx_sup. 

La distorsion non-lineaire permet de minimiser plus efficaceriient 
I'erreur de modelisation. Elle est par exemple effectuee selon une echelle de 
frequences de type Mel ou Bark. Cette distorsion peut eventuellement 
dependre de la frequence fondamentale estimee Fq- La figure 1 illustre le cas 
de I'echelle Mel. La relation entre les frequences F du spectre lineaire, 
exprimees en hertz, et les frequences F" de I'echelle Mel est la suivante : 

logio(2) 1000j 

Afin de limiter le debit de transmission, une troncature des coefficients 
cepstraux cx_sup est effectuee. Le module de TFRI 13 a besoin de calculer 
seulement un vecteur cepstral de NCS coefficients cepstraux d'ordres 0 a 
NCS-1. A titre d' exemple, NCS peut etre egal a 16. 

Un post-filtrage dans le domaine cepstral. appele post-liftrage, est 
applique par un module 15 a I'enveloppe superieure comprimee LX_sup. Ce 
post-liftrage correspond a une manipulation des coefficients cepstraux cx_sup 
delivres par le module de TRF1 13, qui correspond approximativement a un 
post-filtrage de la partie harmonique du signal par une fonction de transfert 
ayant la forme classique : 

ou A(z) est la fonction de transfert d'un filtre de prediction lineaire du signal 
audio, et sont des coefficients compris entre 0 et 1 , et n est un coefficient 
de preaccentuation eventuellement nul. La relation entre le coefficient post-liftre 



o. 
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d'ordre i. note Cp(i). et le coefficient cepstral correspondant c(i) = cx_sup(i) 

delivre par le module 13 est alors : 

Cp(0) = c(0) 

Cp(i) = ll + Y2^Y!,jc(i)--^ pouri>0 

Le coefficient de preaccentuation optionnel ji peut etre controle en 

nnsant comme contrainte de preserver la valeur du coefficient cepstral 

cx_sup(1) relatif a la pente. En effet. la valeur c(1) = cx_sup(1) rfun bruit blanc 
filtre par le filtre de preaccentuation correspond au coefficient de 
preaccentuation. On peut ainsi choisir ce dernier de la fafon suivante : 

n = (Y2-Yi)-c(i)- ■ 

^ 10 Apres le post-liftre 15, un module de normalisation 16 modifie encore 

les coefficients cepstraux en imposant la contrainte de modelisation exacte 
d'un point du spectre initial, qui est de preference le point le plus energetique 
parmi les maxima spectraux extraits par le module 9. En pratique, cette 
normalisation modifie seulement la valeur du coefficient Cp(0). 
15 Le module de normalisation 16 fonctionne de la fagon suivante: il 

recalcule une valeur du spectre synthetise a la frequence du maximum indique 
par le module 9, par transformee de Fourier des coefficients cepstraux 
tronques et post-liftres. en tenant compte de la distorsion non-lineaire de I'axe 
des frequences ; il determine un gain de normalisation g^^ par la difference 
20 logarithmique entre la valeur du maximum fournie par le module 9 et cette 
valeur recalculee ; et il ajoute le gain au coefficient cepstral post-liftre Cp(0). 

Cette normalisation peut etre vue comme faisant partie du post-liftrage. 

Les coefficients cepstraux post-liftres et normalises font I'objet tf une 
quantification par un module 18 qui transmet des index de quantification 
25 correspondants icxs au multiplexeur de sortie 6 du codeur. 

Le module 1 8 peut fonctionner par quantification vectorielle a partir de 
vecteurs cepstraux formes de coefficients post-liftres et normalises, notes lei 
cx[n] pour la trame de signal de rang n. A titre d'exemple, le vecteur cepstral 
cx[n] de NCS = 16 coefficients cepstraux cx[n,0], cx[n,1]. .... cx[n,NCS-1] est 
30 distribue en quatre sous-vecteurs cepstraux contenant chacun quatre 
coefficients d'ordres consecutifs. Le vecteur cepstral cx[n] peut etre traite par 
les moyens representes sur la figure 6. faisant partie du module de 
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quantification 18. Ces moyens mettent en oeuvre. pour chaque composante 
cx[n,i], un predicteur de la forme : 

cxp[n,i] = (l-a(i)).rcx[n,i] + a(i).rcx[n-1,i] (9) 

ou rcx[n] designs un vecteur residuel de prediction pour la trame de rang n 

dont les composantes sont respectivement notees rcx[n,0], rcx[n,1] 

rcx[n.NCS-1], et a(i) designe' un coefficient de prediction choisi pour etre 

iBpibbbinidlif J'uiib Luiit i laliuii ini c'r°b° ame-3t3ppcra@ &. Aprco quontif i eotion dco 

residus, ce vecteur residuel est defini par : 

u„f..n cx[n.il-a(i).rcx_q[n-1.i3 ,^o) 
rcxin.ij- 2_a(i) 

ou rcx_q[n-1] designe le vecteur residuel quantifie pour la trame de rang n-1, 

dont les composantes sont respectivement notees rcx_q[n,0], rcx_q[n,1] 

rcx_q[n.NCS-1]. 

Le numerateur de la relation (10) est obtenu par un soustracteur 20, 
dont les composantes du vecteur de sortie sont divisees par les quantites 
2_a(i) en 21. Aux fins de la quantification, le vecteur residuel rcx[n] est 
subdivise en quatre sous-vecteurs, correspondant a la subdivision en quatre 
sous-vecteurs cepstraux. Sur la base d'un dictionnaire obtenu par 
apprentissage prealable, I'unite 22 precede a la quantification vectorielle de 
chaque sous-vecteur du vecteur residuel rcx[n]. Cette quantification peut 
consister, pour chaque sous-vecteur srcx[n], a selectionner dans le dictionnaire 
le sous-vecteur quantifie srcx_q(n] qui minimise I'erreur quadratique 
||srcx[n]-srcx_q[n|^. L' ensemble icxs des index de quantification icx, 
correspondant aux adresses dans le ou les dictionnaires des sous-vecteurs 
residuels quantifies srcx_q[n], est fourni au multiplexeur de sortie 6. 

L'unite 22 delivre egalement les valeurs des sous-vecteurs residuels 
quantifies, qui forment le vecteur rcx_q[n]. Celui-ci est retarde d'une trame en 
23, et ses composantes sont multipliees par les coefficients a(i) en 24 pour 
fourni r le vecteur a I' entree negative du soustracteur 20. Ce dernier vecteur est 
d'autre part fourni a un additionneur 25, dont I' autre entree re?oit un vecteur 
forme par les composantes du residu quantifie rcx_q[n] respectivement 
multipliees par les quantites 1-a(i) en 26. U additionneur 25 delivre ainsi le 
vecteur cepstral quantifie cx_q[n] que recuperera le decodeur. 

Le coefficient de prediction a(i) peut etre optimise separement pour 
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chacun des coefficients cepstraux. Las dictionnaires de quantification peuvent 
aussi etre optimises separement pour chacun quatre sous-vecteurs cepstraux. 
D' autre part, il est possible, de fagon connue en soi, de normaliser les vecteurs 
cepstraux avant tf appliquer le schema de prediction/quantification, a partir de 
5 la variance des cepstres. 

II est a noter que le schema ci-dessus de quantification des coefficients 

cepstraux peut n'etre applique que pour certaines seulement des trames. Par 

example, on peut prevoir un second mode de quantification ainsi qu'un 
processus de selection de celui des deux modes qui minimise un critere de 

10 moindres carres avec les coefficients cepstraux a quantifier, et transmettre 
avec les index de quantification de la trame un bit indiquant lequel des deux 
modes a ete selectionne. 

Les coefficients cepstraux quantifies cx_sup_q = cx_q[n] fournis par 
I'additionneur 25 sont adresses a un module 28 qui recalcule les amplitudes 

15 spectrales associees a une ou plusieurs des harmoniques de la frequence 
fondamentale Fq (figure 1). Ces amplitudes spectrales sont par exemple 
calculees sous forme comprimee, en appliquant la transformee de Fourier aux 
coefficients cepstraux quantifies en tenant compte de la distorsion non-lineaire 
de Techelle des frequences utilisee dans la transformation cepstrale. Les 

20 amplitudes ainsi recalculees sont fournies a un module d'adaptation 29 qui les 
compare a des amplitudes de maxima determinees par le module tf extraction 
9. 

Le module d' adaptation 29 controle le post-liftre 15 de fa9on a 
minimiser un ecart de module entre le spectre du signal audio et les vaieurs de 

25 module correspondantes calculees en 28. Cet ecart de module peut etre 
exprime par une somme de vaieurs absolues de differences tf amplitudes, 
comprimees ou non, correspondent a une ou plusieurs des frequences 
harmoniques. Cette somme peut etre ponderee en fonction des amplitudes 
spectrales associees a ces frequences. 

30 De fagon optimale. Tecart de module pris en compte dans Tadaptation 

du post-liflrage tiendrait compte de toutes les harmoniques du spectre. 
Cependant. afin de reduire la complexite de 1' optimisation, le module 28 peut 
ne resynthetiser les amplitudes spectrales que pour une ou plusieurs 
frequences multiples de la frequence fondamentale Fq. selectionnees sur la 

35 base de T importance du module du spectre en valeur absolue. Le module 
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d' adaptation 29 peut par exemple considerer les trois pics spectraux les plus 
intenses dans ie calcul de I'ecart de module a minimiser. 

Dans une autre realisation, le module d' adaptation 29 estime una 
courbe de masquage spectral du signal audio au moyen d'un modele 
psychoacoustique. et les frequences prises en compte dans le calcul de I'ecart 
de module a minimiser sont selectionnees sur la base de I'importance du 
mr.ri„\^ H. . ^ppp.trp rslativpmRnt a la courbe de masquage (on peut par 
exemple prendre les trois frequences pour lesquelles le module du spectre 
depasse le plus de la courbe de masquage). Differentes methodes classiques 
sont utilisables pour calculer la courbe de masquage a partir du signal audio. 
On peut par exemple utiliser celle developpee par J.D. Johnston (« Transform 
Coding of Audio Signals Using Perceptual Noise Criteria », IEEE Journal on 
Selected Area in Communications, Vol. 6, No. 2, fevrier 1 988). 

Pour realiser I' adaptation du post-liftrage, ie module 29 peut utiliser un 
modele d' identification de filtre. Une methode plus simple consiste a predefinir 
un ensemble de jeux de parametres de post-liftrage, c'est-a-dire un ensemble 
de couples yi, Y2 ^^ns le cas d'un post-liftrage selon les relations (8), a 
effectuer les operations incombant aux modules 15, 16, 18 et 28 pour chacun 
de ces jeux de parametres. et a retenir celui des jeux de parametres qui 
conduit a I'ecart de module minima! entre le spectre du signal et les valeurs 
recalculees. Les index de quantification fournis par le module 18 sont alors 
ceux qui se rapportent au meilleur jeu de parametres. 

Par un processus analogue a celui de I' extraction des coefficients 
cx_sup representant i'enveloppe superieure comprimee LX_sup du spectre du 
signal, le codeur determine des coefficients cx_inf representant une enveloppe 
inferieure comprimee LXJnf Un module 30 extrait du spectre comprime LX 
des amplitudes spectrales associees a des frequences situees dans des zones 
du spectre intermediaires par rapport aux frequences multiples de la frequence 
fondamentale estimee Fq. 

Dans I'exemple illustre par les figures 4 et 5, chaque amplitude 
associee a une frequence situee dans une zone intermediaire entre deux 
harmoniques successives KFq et (k+1).Fo correspond simplement au module 
du spectre pour la frequence (k+1/2).Fo situee au milieu de I'intervalle separant 
les deux harmoniques. Dans une autre realisation, cette amplitude pourrait etre 
une moyenne du module du spectre sur une petite plage entourant cette 
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frequence (k+1/2).Fo. 

Un module 31 procede a une interpolation, par example lineaire, des 
amplitudes spectrales associees aux frequences situees dans les zones 
intermediaires pour obtenir Tenveloppe inferieure comprimee LXJnf, 
5 La transformation cepstrale appliquee a cette enveloppe inferieure 

comprimee LX_inf est effectuee suivant.une echelle de frequences resultant 

d'une distorsion non-lineaire appliquee par un module 32. Le module de TFRI 

33 calcule un vecteur cepstral de NCI coefficients cepstraux cxjnf d'ordres 0 a 
NCI-1 representant Tenveloppe inferieure. NCI est un nombre qui peut etre 
10 sensiblement plus petit que NCS, par exemple NCI = 4. 

La transformation non-lineaire de r echelle des frequences pour la 
transformation cepstrale de T enveloppe inferieure peut etre realisee vers une 
echelle plus fine aux hautes frequences qu'aux basses frequences, ce qui 
permet avantageusement de bien modeliser les composantes non-voisees du 
15 signal aux hautes frequences. Toutefois, pour assurer une homogeneite de 
representation entre I'enveloppe superieure et Tenveloppe inferieure, on pourra 
preferer adopter dans le module 32 la meme echelle que dans le module 12 
(Mel dans Texemple considere). 

Les coefficients cepstraux cxJnf representant T enveloppe inferieure 
20 comprimee sont quantifies par un module 34, qui peut fonctionner de la meme 
maniere que le module 18 de quantification des coefficients cepstraux 
representant I'enveloppe superieure comprimee. Dans le cas considere, ou on 
se limite a NCI = 4 coefficients cepstraux pour I'enveloppe inferieure, le vecteur 
ainsi forme est soumis a une quantification vectorielle de residu de prediction, 
25 effectuee par des moyens identiques a ceux representes sur la figure 6 mais 
sans subdivision en sous-vecteurs. L' index de quantification icx = icxi 
determine par le quantificateur vectoriel 22 pour chaque trame relativement aux 
coefficients cxJnf est fourni au multiplexeur de sortie 6 du codeur. 

Le codeur represents sur la figure 1 ne comporte aucun dispositif 
30 particulier pour coder les phases du spectre aux harmoniques du signal audio. 

En revanche, il comporte des moyens 36-40 pour coder une 
information temporelle liee a la phase de la composante non-harmonique 
representee par r enveloppe inferieure, 

Un module 36 de decompression spectrale et un module 37 de TFRI 
35 forment une estimation temporelle de la trame de la composante non- 
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harmonique. Le module 36 applique une fonction de decompression reciproque 
de la fonction de compression appliquee par le module 8 (c'est-a-dire une 
exponentielle ou une fonction puissance My) a I'enveloppe inferieure 
comprimee LXJnf produite par le module d' interpolation 31. Ceci fournit le 
module de la trame estimee de la composante non-harmonique, dont la phase 
est prise egale a celle (px ^iu spectre du signal X sur la trame. La transformee 

Ufci ruu i iei' iimmiae effeaucc par le modu l e 37 fournit Iq tromo ootimoo do la 

composante non-harmonique. 

Le module 38 subdivise cette trame estimee de la composante non- 
harmonique en plusieurs segments temporels. La trame delivree par le module 
37 se composant de 2N = 512 echantillons ponderes comme illustre par la ^ 
figure 3. le module 38 considere seulement les N/2 = 128 premiers echantillons 
et les N/2 = 128 derniers echantillons, et les subdivise par exemple en 
huit segments de 32 echantillons consecutifs representant chacun 4 ms de 
signal. 

Pour chaque segment, le module 38 calcule I'energie egale a la 
somme des carres des echantillons. et forme un vecteur E1 forme de 
huit composantes reelles positives egales aux huit energies calculees. La plus 
grande de ces huit energies, notee EM. est egalement determinee pour etre 
fournie, avec le. vecteur E1 . a un module de normalisation 39. Celui-ci divise 
chaque composante du vecteur E1 par EM, de sorte que le vecteur normalise 
Emix est forme de huit composantes comprises entre 0 et 1. C'est ce vecteur 
normalise Emix, ou vecteur de ponderation. qui est soumis a la quantification ij^ 
par le module 40. Celui-ci peut operer une quantification vectorielle avec un 
dictionnaire determine lors d'un apprentissage prealable. L'index de 
quantification iEm est fourni par le module 40 au multiplexeur de sortie 6 du 
codeur. 

La figure 7 montre une variante de realisation des moyens employes 
par le codeur de la figure 1 pour determiner le vecteur Emix de ponderation 
energetique de la trame de la composante non-harmonique. Les modules 36, 
37 de decompression spectrale et de TFRI fonctionnent comme ceux qui 
portent les memes references sur la figure 1. Un module de selection 42 est 
ajoute pour determiner la valeur du module du spectre soumis a la transformee 
de Fourier inverse 37. Sur la base de la frequence fondamentale estimee Fq, le 
module 42 identifie des regions harmoniques et des regions non-harmoniques 
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du spectre du signal audio. Par exemple, une frequence sera consideree 
comme appartenant a une region harmonique si elle se trouve dans un 
intervalle de frequences centre sur une harmonique k.F^ et de largeur 
correspondant a une largeur de raie spectrale synthetisee, et a une region non- 
harmonique sinon. Dans les regions non-harmoniques, le signal complexe 
soumis a la TFRI 37 est egal a la valeur du spectre, c'est-a-dire que son 
module et 3Q phQOC oorrocpondont Qun va l ou r s jX j et cp^^ foumies p^ . r >e rrxnrii 
de TFR 3. Dans les regions harmoniques. ce signal complexe a la meme 
phase cpx que le spectre et un module donne par I'enveloppe inferieure apres 
decompression spectrale 36. Cette fagon de proceder selon la figure 7 procure 
une modelisation plus precise des regions non-harmoniques, 

Le decodeur represents sur la figure 8 comprend un demulti'plexeur 
d'entree 45 qui extrait du flux binaire <P, issu d'un codeur selon la figure 1. les 
index iF. icxs, icxi. lEm de quantification de la frequence fondamentale Fq, des 
coefficients cepstraux representant I'enveloppe superieure comprimee, des 
coefficients representants I'enveloppe inferieure comprimee. et du vecteur de 
ponderation Emix, et les distribue respectivement a des modules 46, 47. 48 et 
49. Ces modules 46-49 comportent des dictionnaires de quantification 
semblables a ceux des modules 5, 18. 34 et 40 de la figure 1. afin de restituer 
les valeurs des parametres quantifies. Les modules 47 et 48 ont des 
dictionnaires pour former les residus de prediction quantifies rcx_q[n], et ils en 
deduisent les vecteurs cepstraux quantifies cx_q[n] avec des elements 
identiques aux elements 23-26 de la figure 6. Ces vecteurs cepstraux 
quantifies cx_q[n] fournissent les coefficients cepstraux cx_sup_q et cxjnf_q 
traites par le decodeur. 

Un module 51 calcule la transformee de Fourier rapide des coefficients 
cepstraux cx_sup pour chaque trame de signal. L'echelle des frequences du 
spectre comprime qui en resulte est modifiee non-lineairement par un module 
52 appliquant la transformation non-lineaire reciproque de celle du module 12 
de la figure 1, et qui fournit Testimation LX_sup de Tenveloppe superieure 
comprimee. Une decompression spectrale de LX_sup. operee par un module 
53, fournit I'enveloppe superieure X_sup comportant les valeurs estimees du 
module du spectre aux frequences multiples de la frequence fondamentale Fq. 
Le module 54 synthetise Testimation spectrale de la composante 
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harmonique du signal audio, par une somme de rales spectrales centrees sur 
les frequences multiples de la frequence fondamentale Fq et dont les 
amplitudes (en module) sent celles donnees par I'enveioppe superieure X_sup. 

Bien que le flux numerique d'entree O ne comporte pas d' informations 
specifiques sur la phase du spectre du signal aux harmoniques de la frequence 
fondamentale. le decodeur de la figure 8 est capable d'extraire de I'information 
sur cette phase a partir des coetTicients cepstraux cx_sup_q represeniani 
I'enveioppe superieure comprimee. Cette information de phase est utilisee pour 
affecter une phase (p(k) a chacune des raies spectrales determinees par le 
module 54 dans I'estimation de la composante harmonique du signal. 

En premiere approximation, le signal de parole peut etre considere 
comme etant a phase minimale. D' autre part, il est connu que I'information de 
phase minimale peut se deduire facilement d'une modelisation cepstrale. Cette 
information de phase minimale est done calculee pour chaque frequence 
harmonique. L'hypothese de phase minimale signifie que I'energie du signal 
synthetise est localisee au debut de chaque periode de la frequence 
fondamentale Fq. 

Pour etre plus proche d'un signal de parole reel, on introduit un peu de 
dispersion au moyen d'un post-liftrage specifique des cepstres iors de la 
synthese de la phase. Avec ce post-liftrage, effectue par le module 55 de la 
figure 8, ii est possible d'accentuer les resonances formantiques de I'enveioppe 
et done de eontroler la dispersion des phases. Ce post-liftrage est par exemple 
de la forme (8). 

Pour limiter les ruptures de phase, il est preferabje de lisser les 
coefficients cepstraux post-llftres, ee qui est effectue par le module 56. Le 
module 57 deduit des coefficients cepstraux post-liftres et lisses la phase 
minimale affectee a chaque raie spectrale representant un pic harmonique du 
spectre. 

Les operations effeetuees par les modules 56, 57 de lissage et 
d'extraetion de la phase minimale sont illustrees par I'organigramme de la 
figure 9. Le module 56 examine les variations des coefficients cepstraux pour 
appliquer un lissage moins important en presence de variations brusques qu'en 
presence de variations lentes. Pour eela, il effectue le lissage des coefficients 
cepstraux au moyen d'un facteur d'oubli X^. choisi en fonction d'une 
comparaison entre un seuil d^^ et une distance d entre deux jeux successifs de 
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coefficients cepstraux post-liftres. Le seuil d^^ est lui-meme adapte en fonction 

des variations des coefficients cepstraux. 

La premiere etape 60 consiste a calculer la distance d entre les deux 
vecteurs successifs relatifs aux trames n-1 et n. Ces vecteurs, notes id 
cxp[n-1] et cxp[n], correspondent pour cheque trame a {'ensemble des NCS 
coefficients cepstraux post-liftres representant I'enveloppe superieure 



entre les deux vecteurs ou encore une distance quadratique. 

Deux lissages sont d'abord effectues, respectlvement au moyen de 
facteurs d'oubli X^^ et X^gx- PO""" determiner une distance minimale d^^^ et 
une distance maximale dj^^^. Le seuil dj^ est ensuite determine a Tetape 70 
comme etant situe entre les distances minimale et maximale d^j^. d^^gx • 
dju = p.dn,ax C-P) '^min' '® coefficient p etant par exemple egal a 0,5. 

Dans I' exemple represente, les facteurs d'oubli X^jn et X^^ax sont eux- 
memes selectionnes parmi deux valeurs distinctes, respectivement X^jpi . ^awnz 
et Xn,axi. Xniax2 comprises entre 0 et 1, les indices X^^^^. X^^^ etant chacun 
sensiblement plus pres de 0 que les indices A-^^jng. ^max2- Si d > dn^jn (test 61 ). 
le facteur d'oubli est egal a X^^^i (^tap© 62) ; sinon il est pris egal a X^mj 
(etape 63). A I' etape 64, la distance minimale d^^„ est prise egale a 
\^j,.d^i„ + (1-^min) d. Si d > d^3^ (test 65). le facteur d'oubli X^^ est egal a 
Xfj^^^^ (etape 66) ; sinon il est pris egal a X^ax2 (©tape 67). A 1' etape 68, la 
distance minimale d^^^g^ est prise egale a ?tn,ax-dmax C-^max) *^- 

Si la distance d entre les deux vecteurs cepstraux consecutifs est plus 
grande que le seuil d^^ (test 71), on adopte pour le facteur d'oubli X^, une valeur 
Xf.^ relativement proche de 0 (etape 72). On considere dans ce cas que le 
signal correspondant est de type non stationnaire, de sorte qu'il n'y a pas lieu 
de conserver une grande memoire des coefficients cepstraux anterieurs. Si 
d < djf,, on adopte a 1' etape 73 pour le facteur d'oubli une valeur X^2 moins 
proche de 0 afin de lisser davantage les coefficients cepstraux. Le lissage est 
effectue a I' etape 74, ou le vecteur cxl[n] de coefficients lisses pour la trame 
courante n est determine par : 




peut not; 
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cxl[n] = \c ■Cx\[n-^] + (l - >.c )cxp[n] (11) 
Le module 57 calcule ensulte les phases minimales (p(k) associees aux 
harmoniques k.pQ- De fagon connue, la phase minimale pour une harmonique 
d'ordre k est donnee par : 

NCS-1 

<p{k) = -2. 22 cxl[n,m]. sin(27imk Fq /Fe ) (12) 

ou cxl[n,m] designe le coefficient cepstral lisse d'ordre m pour la trame n. 

A I'etape 75, I'index d'harmonique k est initialise a 1. Pour initialiser le 
calcul de la phase minimale affectee a I' harmonique k, la phase (p(k) et Hndex 
cepstral m sont initialises respectivement a 0 et 1 a I'etape 76. A I'etape 77. le 
10 module 57 ajoute a la phase (p(k) la quantite -2.cxi[n,m].sin(27imk.Fo/Fe). 
L'index cepstral m est incremente a I'etape 78 et compare a NCS a I'etape 79. 
Les etapes 77 et 78 sont repetees tant que m < NCS. Quand m = NCS, le 
calcul de la phase minimale est termine pour I'harmonique k. et I'index k est 
incremente a I'etape 80. Le calcul de phases minimales 76-79 est renouyele 
15 pour I'harmonique suivante tant que k.Fg < F^2 (test 81 ). 

Dans I'exemple de realisation selon la figure 8. le module 54 tient 
compte d'une phase constants sur la largeur de chaque raie spectrale, egale a 
la phase minimale (p(k) fournie pour I'harmonique correspondante k par le 
module 57. 

20 L' estimation de la composante harmonique est synthetisee par 

sommation de raies spectrales positionnees aux frequences harmoniques de la 
frequence fondamentale Fq. Lors de cette synthese. on peut positionner les 
raies spectrales sur I' axe des frequences avec une resolution superieure a la 
resolution de la transformee de Fourier. Pour cela, on precalcule une fois pour 

25 toutes une raie spectrale de reference selon la resolution superieure. Ce calcul 
peut conslster en une transformee de Fourier de la fenetre d' analyse fA avec 
une taille de transformee de 16384 points, procurant une resolution de 0.5 Hz 
par point. La synthese de chaque raie harmonique est alors effectuee par le 
module 54 en positionnant sur I' axe des frequences la raie de reference a 

30 haute resolution, et en sous-echantillonnant cette raie spectrale de reference 
pour se ramener a la resolution de 16.625 Hz de la transformee de Fourier sur 
512 points. Ceci permet de positionner avec precision la raie spectrale. 
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Pour la determination de I'enveloppe inferieure, le module de TFR 85 
du decodeur de la figure 8 regoit les NCI coefficients cepstraux quantifies 
cxjnf_q d'ordres 0 a NCI-1, et il les complete avantageusement par les 
NCS - NCI coefficients cepstraux cx_sup_q d'ordre NCI a NCS - 1 

5 representant I'enveloppe superieure. En effet. on peut estimer en premiere 
approximation que les variations rapides de I'enveloppe inferieure comprimee 

snnt bien reoroduites oar celles de Tenveioppe superieure comprimee. Dans 

une autre realisation, le module de TFR 85 pourrait ne considerer que l^s NCI 
parametres cepstraux cx_inf_q. 

10 Le module 86 convertit I'echelle de frequences de maniere reciproque 

de la conversion operee par le module 32 du codeur, afin de restituer 
O I' estimation LXJnf de I'enveloppe inferieure comprimee, soumise au module de 

decompression spectrale 87. En sortie du module 87, le decodeur dispose 
d'une enveloppe inferieure XJnf comportant les valeurs du module du spectre 

15 dans les vallees situees entre les pics harmoniques. 

Cette enveloppe XJnf va moduler le spectre d'une frame de bruit dont 
la phase est traltee en fonction du vecteur de ponderation quantifie Emix extrait 
par le module 49. Un generateur 88 delivre une frame de bruit normalise dont 
les segments de 4 ms sont ponderes dans un module 89 conformement aux 

20 composantes normalisees du vecteur Emix fourni par le module 49 pour la 
frame courante. Ce bruit est un bruit blanc filtre passe-haut pour tenir compte 
du faible niveau qu'a en principe la composante non-voisee aux basses 
Q frequences. A partir du bruit pondere en energie, le module 90 forme des 

frames de 2N = 512 echantillons en appliquant la fenetre d'analyse f^^, 

25 ['insertion de 256 echantillons a zero et la permutation circulaire pour la 
compensation de phase conformement a ce qui a ete explique en reference a 
la figure 3. La transformee de Fourier de la frame resultante est calculee par le 
module TFR 91. 

L'estimation spectrale X^^ de la composante non-harmonique est 
30 determinee par le module de synthese spectrale 92 qui effectue une 
ponderation frequence par frequence. Cette ponderation consiste a multiplier 
chaque valeur spectrale complexe fournie par le module de TFR 91 par la 
valeur de I'enveloppe Inferieure XJnf obtenue pour la meme frequence par le 
module de decompression spectrale 87. 
35 Les estimations spectrales X^, X^^ des composantes harmonique 
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(voisee dans le cas d'un signal de parole) et non-harmonique (ou non-voisee) 
sont combinees par un module de mixage 95 controle par un module 96 
d' analyse du degre d'harmonicite (ou de voisement) du signal. 

L' organisation de ces modules 95. 96 est illustree par la figure 10. Le 
module d' analyse 96 comporte une unite 97 d* estimation d'un degre de 
voisement W dependant de la frequence, a partir duquel sont calcules quatre 
pains depe ndant de la frequence, a savoir deux gains q.,. q..., controlant 



I' importance relative des composantes harmonique et non-harmonique dans le 
signal synthetise, et deux gains g^_^, guv_<p utilises pour bruiter la phase de la 

10 composante harmonique. 

Le degre de voisement W(i) est une valeur a variation continue 
comprise entre 0 et 1 determinee pour chaque index de frequence i (0 :^ i < N) 
en fonction de I'enveloppe superieure X_sup(i) et de I'enveloppe inferieure 
XJnf(i) obtenues pour cette frequence i par les modules de decompression 53. 

15 87. Le degre de voisement W(i) est estime par I' unite 97 pour chaque index de 
frequence I correspondant a une harmonique de la frequence fondamentale Fq, 



20 



a savoir i = 



2NI<^ + - 
Fe 2 



pour k = 1,2 par une fonction croissante du 



rapport entre I'enveloppe superieure X_sup et I'enveloppe inferieure XJnf a 
cette frequence, par exemple selon la formule : 

W(i) = min{l. ^°'°g^°'^-^ff^'^-'"'"" } (13) 

Le seuil \/th{Fo) correspond a la dynamique moyenne calculee sur un spectre 
synthetique purement voise a la frequence fondamentale. II est 
avantageusement choisi dependant de la frequence fondamentale Fq. 

Le degre de voisement W(i) pour une frequence autre que les 
25 frequences harmoniques est obtenu simplement comme etant egal a celui 
estime pour 1' harmonique la plus proche. 

Le gain g^(i), qui depend de la frequence, est obtenu en appliquant une 

fonction non-lineaire au degre de voisement W(i) (bloc 98). Cette fonction non- 
lineaire a par exemple la forme representee sur la figure 1 1 : 
30 gv(') = 0 siO<W(i)<W1 

, W(')-W1 ^ j ^ ^2 (14) 

^vv'^ W2-W1 
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g^(i) = 1 si W2 < W(i) < 1 
les seuils W1. W2 etant tels que 0<W1 <W2< 1. Le gain peut etre 
calcule de maniere semblable au gain (la somme des deux gains g^. g^^ 
etant constants, par exemple egale a 1). ou deduit simplement de celui-Ci par 
5 la relation gu^C') = 1 - 9v(')» ^o^^® schematise par le soustracteur 99 sur la 
figure 10. 

II est interessant de pouvoir bruiter la phase de la composante 
harmonique du signal a une frequence donnee si Tanalyse du degr-e de 
voisement montre que le signal est plutot de type non-harmonique a cette 

10 frequence. Pour cela. la phase cp'^ de la composante harmonique mixes est le 
resultat d'une combinaison lineaire des phases (p^, ip^ des composantes 
harmonique et non-harmonique X^, X^v synthetisees par les modules 54, 92. 
Les gains g^ ^, g^^ ^ respectivement appliques a ces phases sont calcules a 
partir du degre de voisement W et ponderes egalement en fonction de 1' index 
15 de frequence i, etant donne que le bruitage de la phase n'est veritablement 
utile qu'au-dela tf une certaine frequence. 

Un premier gain g^^ ^ est calcule en appliquant une fonction non- 

lineaire au degre de voisement W(i), comme schematise par le bloc 100 sur la 
figure 10. Cette fonction non-lineaire peut avoir la forme representee sur la 
20 figure 12: 

Q gv1.cp('0 = G1 siO<W(i)<W3 

gvl_cpO)=G1-^(l-Gl)^^f^ siW3<W(i)<W4 (15) 

9v1.(pO) = 1 siW4<W(i)<1 
les seuils W3 et W4 etant tels que 0 < W3 < W4 < 1. et le gain minimal G1 
25 etant compris entre 0 et 1 . 

Un multiplieur 101 multiplie pour chaque frequence d index i le gain 
9vi cp P^'' autre gain g^2 cp dependant seulement de I'index de frequence i. 
pour former le gain g^ ^(i). Le gain gv2_^cp(') depend non-lineairement de I'index 
de frequence i, par exemple comme indique sur la figure 13 : 
30 gv2.(p(') = '' siO<i<i1 

gv2.cp(i)=1-0-G2)i:^ sii1<i<i2 (16) 
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9v2_<p(0 = G2 sii2<i<1 
les index i1 et i2 etant tels que 0 < i1 < i2 < N, et le gain minimal G2 etant 
compris entre 0 et 1. Le gain q^,^_^{\) peut etre calcule simplement comme 
etant egal a 1 - g,_^(i) = 1 - gvi_cp(i) gv2_q,(') (soustracteur 102 de la figure 
10). 

Le spectre complexe Y du signal synthetise est produit par le module 



de mixage 95, qui realise la relation de mixage suivante. pour 0 < i < N : 

Y{i) = gv(i) |Xv(i)|. expUcpvO)] + QuvO)- C'^) 

avec (Pv(')=gv_q>(')<Pv(') + guv_cp(')-^uv(') C'S) 

10 ou (Pv(i) designe I' argument du nombre complexe Xy(i) fourni par le module .54 
pour la frequence d' index i (bloc 104 de la figure 10). et (p^(\) designe. 
I' argument du nombre complexe X^^(}) fourni par le module 92 (bloc 105 de la 
figure 10). Cette combinaison est realisee par les multlplieurs 106-110 et les 
additionneurs 111-112 representes sur la figure 10. 
15 Le spectre mixe Y(i) pour 0 < i < 2N (avec Y(2N-1-i) =Y(i)) est ensuite 

transforms dans le domaine temporal par le module de TFR1 115 (figure 8). On 
ne retient que les N/2 = 128 premiers et les N/2 = 128 demiers echantillons de 
la trame de 2N = 512 echantillons produite par le module 115. et on applique la 
permutation circulaire inverse de celle illustree par la figure 3 pour obtenir la 
20 trame synthetisee de N = 256 echantillons ponderes par la fenetre d' analyse f^. 

Les trames successivement obtenues de cette maniere sont finalement 
traitees par le module de synthese temporelle 116 qui forme le signal audio 
decode x. 

Le module de synthese temporelle 116 effectue une somme a 
25 recouvrement de trames modifiees par rapport a celles successivement 
evaluees en sortie du module 115. La modification peut etre vue en deux 
etapes illustrees respectivement par les figures 14 et 15. 

La premiere etape (figure 14) consiste a multiplier chaque trame 2' 
delivree par le module de TFRI 115 par une fenetre l/f^ inverse de la fenetre 
30 d' analyse f^ employee par le module 1 du codeur. Les echantillons de la trame 
2" qui en resultent sont done ponderes uniformement. 

La seconde etape (figure 15) consiste a multiplier les echantillons de 
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cette trame 2" par une fenetre de synthase fg verifiant les proprietes suivantes : 
fs(N-L+i) + fs(i) = A pour 0 < i < L (19) 
fs(') = A pourL<i<N-L (20) 
ou A designe une constante positive arbitraire. par exemple A = 1. La fenetre 
5 de synthase fs(i) croTt progressivement de 0 a A pour i allant de 0 a L. C'est par 
exemple une demi-sinusoide surelevee : 

fg(j) = (1 - cos[(i + 1 /2)7t/LD pour 0 < i < L (21 ) 

Apres avoir repondere chaque trame 2" par la fenetre de synthese fg, 
le module 116 positionne les trames successives avec leurs decalages 
O 10 temporals de M = 160 echantillons et leurs recouvrements temporels de L = 96 

echantillons, puis il effectue la somme des trames ainsi positionnees dans le 
temps. Du fait des proprietes (19) et (20) de la fenetre de synthese fg, chaque 
echantillon du signal audio decode x ainsi obtenu est affecte d'un poids global 
uniforme. egal a A. Ce poids global provient de la contribution d'une trame 
15 unique si I'echantillon a dans cette trame un rang i tel que L ^ i < N - L, et 
comporte les contributions sommees de deux trames successives si 0 ^ i < L 
ou N - L ^ i < N. 

On peut ainsi effectuer la synthese temporelle de fagon simple meme 
si, comme dans le cas considere, le recouvrement L entre deux trames 
20 successives est plus petit que la moitie de la taille N de ces trames. 

Les deux etapes exposees ci-dessus pour la modification des trames 
de signal peuvent etre fusionnees en une seule etape. II suffit de precalculer 
une fenetre composee fc(i) = fs(')/fA(')' ®^ ^® multiplier simplement les trames 
2' de N = 256 echantillons delivrees par le module 1 15 par la fenetre composee 
25 fc avant d' effectuer la sommation a recouvrement. 

La figure 16 montre I'allure de la fenetre composee f^ dans le cas ou la 

fenetre d'analyse f^ est une fenetre de Hamming et la fenetre de synthese fg a 

la forme donnee par les relations (19) a (21). 

□'autre formes de la fenetre de synthese fg verifiant les relations (19) 

30 et (20) peuvent etre employees. Dans la variante de la figure 17, c'est une 
fonction affine par morceaux definie par : 

fs(0 - P°"'' 0 ^ *' < ^22) 
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Afin tf ameliorer la qualite de codage du signal audio, le codeur de la 
figure 1 peut augmenter la cadence de formation et d' analyse des trames, afin 
de transmettre davantage de parametres de quantification au decodeur. Dans 
la structure de trame representee sur la figure 2, une trame de N = 256 

5 echantillons (32 ms) est formee toutes les 20 ms. Ces trames de 256 
echantilions pourraient etre formees a une cadence superieure, par exemple 
Hg> m rrij^ fifiij y trames successives avant alors un decalage de M/2 = 80 
echantillons et un recouvrement de 176 echantillons. 

Dans ces conditions, on peut transmettre les jeux complets de 

10 parametres de quantification iF, icxs. icxi, iEm pour seulement un sous- 
ensemble des trames, et transmettre pour les autres trames des parametres 
permettant d'effectuer une interpolation adequate au niveau du decodeur. Dans 
I'exemple envisage ci-dessus, le sous-ensemble pour lequel des jeux de 
parametres complets sent transmis peut etre constitue par les trames de rang 

15 entier n, dont la periodicite est de M/F^ = 20 ms, et les trames pour lesquelles 
une interpolation est effectuee peuvent etre celles de rang demi-entier n + 1/2 
qui sent decalees de 10 ms par rapport aux trames du sous-ensemble. 

Dans la realisation illustree par la figure 18, les notations cx_q [n-1] et 
cx_q[n] designent des vecteurs cepstraux quantifies determines, pour deux 

20 trames successives de rang entier, par le module de quantification 18 et/ou par 
le module de quantification 34. Ces vecteurs comprennent par exemple quatre 
coefficients cepstraux consecutifs chacun. lis pourraient egalement 
comprendre davantage de coefficients cepstraux. 

Un module 120 effectue une interpolation de ces deux vecteurs 

25 cepstraux cx_q[n-1] et cx_q[n], afin d'estimer une valeur intermediaire 
cxJ[n-1/2]. L* interpolation effectuee par le module 120 peut etre une simple 
moyenne arithmetique des vecteurs cx_q[n-1] et cx_q[n]. En variante, le 
module 120 pourrait appliquer une formule interpolation plus sophistiquee, 
par exemple polynomiale, en se fondant egalement sur les vecteurs cepstraux 

30 obtenus pour des trames anterieures a la trame n~-1 . D' autre part, si plus d'une 
trame interpolee est intercalee entre deux trames consecutives de rang entier, 
r interpolation tient compte de la position relative de chaque trame interpolee. 

A I'aide des moyens precedemment decrits, le codeur calcule 
egalement les coefficients cepstraux cx[n-1/2] relatifs a la trame de rang demi- 

35 entier, Dans le cas de I'enveloppe superieure, ces coefficients cepstraux sent 
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ceux fournis par le module de TFRI 13 apres post-liftrage 15 (par exemple avec 
les memes coefficients de post-liftrage que pour la trame precedente n-1 ) et 
normalisation 16. Dans le cas de Tenveloppe inferieure, les coefficients 
cepstraux cx[n-1/2] sont ceux delivres par le module de TFRI 33. 

Un soustracteur 121 forme la difference ecx[n-1/2] entre les 
coefficients cepstraux cx[n-1/2] calcules pour la trame de rang demi-entier et 

Fn— 1/21 estimes oar interpolation. Cette difference est 



fournie a un module de quantification 122 qui adresse des index de 
quantification icx[n-1/2] au multiplexeur de sortie 6 du codeur. Le module 122 
10 fonctionne par exemple par quantification vectorielle des erreurs d' interpolation 
ecx[n-1/2] successivement determinees pour les trames de rang demi-entier, 

Cette quantification de I'erreur d' interpolation peut etre effect uee par le 
codeur pour chacun des NCS + NCI coefficients cepstraux utilises par le 
decodeur, ou seulement pour certains tf entre eux, typiquement ceux d'ordres 
15 les plus petits. 

Les moyens correspondants du decodeur sont illustres par la figure 19. 
Le decodeur fonctionne essentiellement comma celui decrit en reference a la 
figure 8 pour determiner les trames de signal de rang entier. Un module 
d' interpolation 124 identique au module 120 du codeur estime les coefficients 
20 intermediaires cxJ[n-1/2] a partir des coefficients quantifies cx_q[n-1] et 
cx_q[n] fournis par le module 47 et/ou le module 48 a partir des index icxs, icxi 
extraits du flux O. Un module d'extracfion de parametres 125 regoit T index de 
Q quantification icx[n-1/2] depuis le demultiplexeur d'entree 45 du decodeur, et 

en deduit I'erreur d' interpolation quantifiee ecx_q[n-1/2] a partir du meme 
25 dictionnaire de quantification que celui utilise par le module 122 du codeur. Un 
additionneur 126 fait la somme des vecteurs cepstraux cxJ[n-1/2] et 
ecx_q[n-1/2] afin de fournir les coefficients cepstraux cx[n-1/2] qui seront 
utilises par le decodeur (modules 51-57, 95, 96. 115 et/ou modules 85-87. 92. 
95. 96. 115) pour former la trame interpolee de rang n-1/2. 
30 Si certains seulement des coefficients cepstraux ont fait Tobjet dune 

quantification d'erreur d' interpolation, les autres sont determines par le 
decodeur par une interpolation simple, sans correcfion. 

Le decodeur peut egalement interpoler les autres parametres Fq. Emix 

utilises pour synthetiser les trames de signal. La frequence fondamentale Fq 
35 peut etre interpolee lineairement. soit dans le domaine tempore!, soit (de 
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preference) directement dans le domaine frequentiel. Pour I' interpolation 
eventuelle du vecteur de ponderatlon energetique Emix. il convient d'effectuer 
r interpolation apres denormalisation et en tenant compte bien entendu des 
decalages temporels entre trames. 

II est a noter qu'il est particulierement avantageux, pour interpoier la 
representation des enveloppes spectrales. d'effectuer cette interpolation dans 

Hnmainp rpp^trai Hnntrairfiment a une interpolation effectuee sur d'autres 

parametres, tels que les coefficients LSP (« Line Spectmrn Pairs »), 
r interpolation lineaire des coefficients cepstraux correspond a I' interpolation 
lineaire des amplitudes spectrales comprimees. 

Dans la variante representee sur la figure 20, le codeur utilise les 
vecteurs cepstraux cx_q[n]. cx_q[n-1]. .... cx_q[n-r] et cx_q[n-1/2] calcules W 
pour les dernieres trames passees (r > 1) pour identifier un filtre interpolateur 
optimal qui, lorsqu'on lui soumet les vecteurs cepstraux quantifies cx_q[n-r], 
cx_q[n] relatifs aux trames de rang entier, delivre un vecteur cepstral 
interpole cx_i[n-1/2] qui presente une distance minimale avec le vecteur 
cx[n-1/2] calcule pour la derniere trame de rang demi-entier . 

Dans I'exemple represents sur la figure 20, ce filtre interpolateur 128 
est present dans le codeur, et un soustracteur 129 retranche sa sortie 
cx_i[n-1/2] du vecteur cepstral calcule cx[n-1/2]. Un module de minimisation 
130 determine le jeu de parametres {P} du filtre interpolateur 128, pour lequel 
I'erreurd' interpolation ecx[n-1/2] delivree par le soustracteur 129 presente une 
norme minimale. Ce jeu de parametres {P} est adresse a un module de ^ 
quantification 131 qui fournit un index de quantification correspondant IP au 
multiplexeur de sortie 6 du codeur. 

En fonction du debit alloue dans le flux (S? aux index de quantification 
des parametres {P} definissant le filtre interpolateur optimal 128, on pourra 
adopter une quantification plus ou moins fine de ces parametres, ou une forme 
plus ou moins elaboree du filtre interpolateur, ou encore prevoir plusieurs filtres 
interpoiateurs quantifies de maniere distincte pour differents vecteurs de 

coefficients cepstraux. 

Dans une realisation simple, le filtre interpolateur 128 est lineaire, avec 

r = 1 : 

cxj[n-1 /2] = p.cx_q(n-1 ] + (1-p).cx_q[n] (23) 
et le jeu de parametres {P} se limite au coefficient p compris entre 0 et 1 . 
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A partir des index iP de quantification des parametres {P} obtenus dans 
le flux binaire (p, le decodeur reconstruit le filtre interpolateur 128 (aux erreurs 
de quantification pres), et traite les vecteurs spectraux cx_q[n-r]. .... cx_q[nl 
afin d'estimer las coefficients cepstraux cx[n-1/2] utilises pour synthetiser les 
trames de rang demi-entier. 

De fa^on generale, le decodeur peut utiliser une methode 
d' interpolation simple (sans transmission de parametres de la part du codeur 
pour les trames de rang demi-entier), une methode d' interpolation avec prise 
en compte rfune erreur tf interpolation quantifiee (selon les figures 17 et 18), ou 
une methode d' interpolation avec un filtre interpolateur optimal (selon la figure 
19) pour evaluer les trames de rang demi-entier en plus des trames de rang 
entier evaluees directement comme explique en reference aux figures 8 a 13. 
Le module 116 de synthese temporelle peut alors combiner I'ensemble de ces 
trames evaluees pour former le signal synthetise x de la maniere expliquee ci- 
apres en reference aux figures 14, 21 et 22. 

Comme dans la methode de synthese temporelle precedemment 
decrite, le module 116 effectue une somme a recouvrement de trames 
modifiees par rapport a celles successivement evaluees en sortie du module 
115. et cette modification peut etre vue en deux etapes dont la premiere est 
identique a celle precedemment decrite en reference a la figure 14 (diviser les 

echantillons de la trame 2' par la fenetre rf analyse fA). 

La seconde etape (figure 21) consiste a multiplier les echantillons de la 

trame renormalisee 2" par une fenetre de synthese fs verifiant les proprietes 

suivantes : 



ou A designe une constante positive arbitraire, par exemple A = 1 , et p est 
rentier tel que le decalage temporel entre les trames successives (calculees 
directement et interpolees) soit de M/p echantillons. soit p = 2 dans 1' exemple 

decrit. La fenetre de synthese fs(i) croit progressivement pour i allant de 

N/2 -M/p a N/2. C'est par exemple une sinusoTde surelevee sur IMntervalle 

N/2 - M/p < i < N/2 + M/p. En particulier. la fenetre de synthese fs peut etre, 

sur cet intervalle. une fenetre de Hamming (comme represents sur la figure 21) 



fs(i) = 0 pour 0 < i < N/2 - M/p et N/2 + M/p < i <N 
(0 4(i + M/p) = A pour N/2 - M/p < i < N/2 



(25) 
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ou une fenetre de Manning. 

La figure 21 montre les trames successives 2" repositionnees dans le 
temps par le module 116. Les hachures indiquent les portions eliminees des 
trames (fenetre de synthese a 0). On voit qu'en effectuant la somme a 
5 recouvrement des echantillons des trames successives. la propriete (25) 
•. assure une ponderation homogene des echantillons du signal synthetise. 

Comme dans la methode de synthese illustree par les figures 14 et 15, 

la procedure de ponderation des trames obtenues par transformee de Fourier 
inverse des spectres Y peut etre effectuee en une seule etape. avec une 
10 fenetre composee fc (i) = fs (>)Aa (') ■ La figure 22 montre la forme de la fenetre 
composee fc dans le cas ou les fenetres f^^ et fs sont de type Hamming. 

Comme la methode de synthese temporelle illustree par les figures 14 
a 17. celle illustree par les figures 14. 21 et 22 permet de prendre en compte 
un recouvrement L entre deux trames d' analyse (pour lesquelles I' analyse est 
15 effectuee de fa?on complete) plus petit que la moitie que la taille N de ces 
trames. De fa^on generate, cette derniere methode est applicable lorsque les 
trames d'analyse successives presentent des decalages temporels mutuels M 
de plus de N/2 echantillons (meme eventuellement de plus de N echantillons si 
un tres bas debit est requis). I' interpolation conduisant a un ensemble de 
20 trames dont les decalages temporels mutuels sont de moins de N/2 
echantillons. 

Les trames interpolees peuvent faire I'objet d'une transmission reduite 
de parametres de codage. comme decrit precedemment. mais cela n"est pas 
obligatoire. Ce mode de realisation permet de conserver un intervene M 

25 relativement grand entre deux trames d'analyse. et done de limiter le debit de 
transmission requis, tout en limitant les discontinuites susceptibles d'apparaitre 
en raison de la taille de cet intervalle par rapport aux echelles de temps 
typiques des variations des parametres du signal audio, notamment les 
coefficients cepstraux et la frequence fondamentale. 

30 Les figures 23 a 25 montrent d'autres formes de realisation des 

moyens employes pour traiter les coefficients cepstraux cx_sup delivres par le 
module de TFR1 13 de la figure 1. representant I'enveloppe superleure. 

Dans les trois cas. les modules de post-liftrage 15. de normalisation 16, 
de quantification 18 et de calcul des amplitudes spectrales 28 sont 

35 essentiellement identiques a ceux precedemment decrits en reference a la 
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figure 1. En outre, des modules de post-liftrage 140, de lissage 141 et 
d' extraction de phase minimale 142 sent prevus pour trailer les coefficients 
cepstraux post-liftres et quantifies cx_sup_q delivres par le module de 
quantification 18. Ces modules 140-142 fonctionnement essentiellement 
5 comme les modules correspondents 55-57 du decodeur de la figure 8. 

Dans la forme de realisation montree sur la figure 23, le module 
d'adaptation 144 accomplit une fonction semblable a celle du module 29 de la 
figure 1. Mais I'adaptation n'est pas realisee sur la seule base du module du 
spectre. Le module 144 determine le meilleur jeu de coefficients pour le post- 
10 liftre 15 en minimisant I'ecart entre le spectre du signal audio, en module (X| et 
en phase (px. et des valeurs complexes recalculees pour une ou plusieurs des 
harmoniques de la frequence fondamentale. Les modules de ces dernieres 
valeurs complexes sont donnees par le module de calcul 28, et leurs phases 
correspondent aux phases minimales <p{k) foumies par le module d' extraction 
15 142. Pour realiser I'adaptation, le module 144 peut prendre en compte toute 
distance appropriee dans le plan complexe, par exemple la distance 
euclidienne. 

Ainsi. I'adaptation du post-liftre 15 par le module 144 tient compte de 
fa?on combinee d' aspects frequentlels du signal, refletes par le module du 

20 spectre, et des aspects temporels, refletes par la phase du spectre. 

Comme represente en pointings sur la figure 23, le post-liftre 140 peut 
egalement etre adaptatif. I'adaptation effectuee par le module 144 portent 
conjointement sur les deux post-liftres 15, 140. Dans ce cas, le post-liftre 55 du 
decodeur (figure 8) est adapte, comme le post-liftre 140, en fonction de 

25 perametres iLif que le module d'edaptetion 144 fournit au multiplexeur 6 pour 
qu'il les indue dans le flux numerique O. Typiquement, quelques jeux de 
coefficients y^, Y2 sont prevus pour les post-liftres 140 et 55, et le module 144 
precede a un test exhaustif de ces differents jeux de coefficients pour retenir 
celui qui minimise I'ecart dans le plan complexe. 

30 Dans i' exemple represente sur la figure 24, le module d'adaptation 29 

du post-liftre 15 est identique a celui de la figure 1. La figure 24 montre un 
module 145 d' estimation d'une courbe de mesquage permettant au module 29 
de selectionner. pour la minimisation de I'ecart en module, la ou les frequences 
harmoniques qui depassent le plus de la courbe de mesquage calculee sur la 

35 bese du spectre en module |X| , comme decrit precedemment. 
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Le post-liftre 140 de la figure 24 est adapte separement par un module 
146 qui realise la minimisation des ecarts entre la phase cpx du spectre du 
signal et la phase minimale (p(k) calculee par le module 142 pour une ou 
plusieurs des harmoniques. La aussi. les harmoniques selectionnees pour le 
calcul de I'ecart de phase minimise peuvent I'etre en fonction de la courbe de 
masquage estimee par le module 145. Le module 146 fournit au multiplexeur 
de sortie C du codc u r Icq paramotroc iL if qui reprs & e n tgnt le 
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140. pour qu'ils soient utilises dans le post-filtre 55 du decodeur. 

Dans rexemple illustre par la figure 25. le post-liftre 140 servant dans 
le calcul des phases minimales n'est pas adaptatif. Les phases minimales cp(k) 
calculees par le module 142 pour les harmoniques de la frequence ^ 
fondamentale sont comparees aux phases (px du spectre du signal audio, et 
I'ecart de phase fait I'objet d'une quantification par un module 148. Les index 
de quantification correspondants iAcp sont fournis par le module 148 au 

15 multiplexeur de sortie 6 du codeur. 

Dans un decodeur (figure 26) con-espondant a un codeur. selon la 
figure 25. un module 149 exploite ces index de quantification iA(p fournis par le 
demultiplexeur .45 pour obtenir les valeurs des ecarts de phase quantifies, 
qu'un additionneur 150 ajoute aux phases minimales <p(k) calculees par le 

20 module 57 (les post-liftres 140 et 55 etant identiques). Les phases fournies par 
I'additionneur 150 sont ensuite utilisees par le module 54 qui synthetise les 
raies spectrales de la composante harmonique X^. ^ 

L'ecart de phase quantifie par le module 148. et que les modules 149 
et 150 du decodeur utilisent pour corriger les phases minimales <p(k), peut etre 

25 de deux natures : 

- il peut representee pour chaque frequence d* index i correspondant a une 
harmonique d'ordre k de la frequence fondamentale Fq la difference entre 
la phase (px(i) du spectre du signal a la frequence i et la phase minimale 
(p(k) calculee par le module 142 pour I'harmonique k ; 

30 - alternativement ou cumulativement. cet ecart de phase peut representer 

la variation de la phase cpx du spectre sur la largeur d'un ou plusieurs 
pics spectraux correspondant a des harmoniques du signal, cette 
variation etant relative a la phase minimale (p(k) affectee aux pics en 
question. 



o 
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Dans les deux cas. le ou les pics pour lesquels I'ecart de phase est 
quantifie peuvent etre choisis en fonction de I'energie spectrale representee 
par I'enveloppe superieure, qui est disponible au codeur et au decodeur, ce qui 
permet au decodeur de determiner a quelle raie spectrale les ecarts doivent 

5 etre appliques. 

Dans le premier cas, les ecarts de phase peuvent faire I'objet d'une 

quantification scalaire. ou vectorielle si on les regroupe pour plusieurs pics. 

Dans le second cas, la variation de la phase (px autour de la phase 
minimale (p(k) sur la largeur d'un pic harmonique (determinee par la largeur de 
10 la raie de reference utiiisee par le module 54), peut etre representee 
^ simplement par la pente d'un segment lineaire selectionne comme etant celui 

qui presente une distance quadratique minimale avec la courbe de variatibn de 
phase du spectre sur la largeur de la raie. et eventuellement par un decalage a 
I'origine. ; . :■ . 

15 Ces pentes peuvent faire I'objet d'une quantification scalaire, ou 

vectorielle si on les regroupe pour plusieurs pics. 

La quantification des variations de phase sur les pics harmoniques 
peut porter sur I' ensemble des frequences harmoniques. Une autre possibilite 
est de quantifier plusieurs pentes obtenues chacune par moyennage des 
20 pentes aux harmoniques sur une ou plusieurs sous-bandes du spectre. Ce 
moyennage peut etre pondere pour prendre en compte les energies relatives 
aux differentes frequences harmoniques, representees par I'enveloppe 

(3 superieure. 

Le module 148 peut egalement modeliser la variation de phase sur la 
25 largeur d'un pic par une courbe plus complexe qu'un segment lineaire, par 
exemple un spline, dont les parametres sont quantifies pour etre transmis au 
decodeur. 

Une autre possibilite est d'effectuer un apprentissage prealable de 
modeles de phase aux harmoniques, representatifs des variations de la phase 

30 sur la largeur des pics, observees sur un corpus de signaux de reference. Ces 
modeles sont ranges dans un dictionnaire memorise par les modules 148 et 
149. Le module 148 du codeur determine les index iAq) correspondant aux 
adresses des modeles les plus proches des variations de phase au voisinage 
des pics harmoniques consideres, et le module 149 du decodeur recupere ces 

35 modeles pour la synthese de la phase de la composante harmonique. 
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REVENDIC ATIONS 

1 Procede de codage d'un signal audio (x), dans lequel on estime une 

frequence fondamentaie (Fq) du signal audio, on determine un spectre du 
signal audio par une transformee dans le domaine frequentiel d'une trame du 
signal audio, et on inclut dans un flux numerique de sortie (<D) des donnees de 
codage d'une composante harmonique du signal audio, comprenant des 
donnees representatives d'amplitudes spectrales associees a des frequences 
multiples de la frequence fondamentaie. caracterise en ce que I' amplitude 
spectrale associee a une desdites frequences multiples de la frequence 
fondamentaie est un maximum local du module du spectre au voisinage de 
ladite frequence multiple. 

2. Procede selon la revendication 1. dans lequel lesdites donnees 
representatives d'amplitudes spectrales associees a des frequences multiples 
de la frequence fondamentaie (Fq) sont obtenues au moyen de coefficients 
cepstraux (cx_sup) calcules en transformant dans le domaine cepstral une 
enveloppe superieure comprimee (LX_sup) du spectre du signal audio. 

3. Procede selon la revendication 2, dans lequel I'enveloppe 
superieure comprimee (LX_sup) est determinee par interpolation desdites 
amplitudes spectrales associees aux frequences multiples de la frequence 
fondamentaie (Fg) avec application d'une fonction de compression spectrale. 

4. Procede selon la revendication 3. dans lequel I' interpolation est 
effectuee entre des points dont I'abscisse est une frequence multiple de la 
frequence fondamentaie (Fq) et dont I'ordonnee est I'amplitude spectrale 
associee a ladite frequence multiple, comprimee ou non comprimee. 

5. Procede selon I'une quelconque des revendications 2 a 4, dans 
lequel la transformation dans le domaine cepstral de I'enveloppe superieure 
comprimee (LX_sup) est effectuee suivant une echelle de frequences non- 
lineaire. 

6. Procede selon I'une quelconque des revendications 2 a 5, dans 
lequel les coefficients cepstraux (cx_sup) sont quantifies pour former lesdites 
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donnees representatives des amplitudes spectrales associees aux frequences 
multiples de la frequence fondamentale (Fq). 

7. Procede selon la revendication 6, dans lequel la quantification des 
coefficients cepstraux (cx_sup) porte sur un residu de prediction pour chacun 
des coefficients cepstraux. 

8. Procodo oolon la rovondication 7, dans loque i-i e ? fi es4du^de»p p6 diGti^ 
pour un coefficient cepstral est de la forme (cx(nj] - a(i).rcx_q[n-1,i])/[2-a(i)]. 
ou cx[n.i] designe une valeur courante dudit coefficient cepstral, rcx_q[n-1J] 
designe une valeur precedente du residu de prediction quantifie. at a(i) designe 
un coefficient de prediction. 

9. Procede selon la revendication 7 ou 8. dans lequel on emploie des 
predicteurs differents pour determiner les residus de prediction pour au moins 
deux des coefficients cepstraux. 

10. Procede selon Tune quelconque des revendications 6 a 9, dans 
lequel les coefficients cepstraux (cx_sup) sont repartis en plusieurs sous- 
vecteurs cepstraux quantifies separement par une quantification vectorielle 
portant sur un residu de prediction des coefficients cepstraux. 

11. Procede selon Tune quelconque des revendications 6 a 10. dans 
lequel on normalise les coefficients cepstraux (cx_sup) avant la quantification, 
en modifiant le coefficient cepstral d'ordre 0 de telle sorte que {'amplitude 
spectrale associee a une frequence multiple de la frequence fondamentale (Fq) 
soit representee de maniere exacte par les coefficients cepstraux normalises. 

12. Procede selon Tune quelconque des revendications 6 a 11. dans 
lequel les coefficients cepstraux (cx_sup) sont transformes par liftrage dans le 
domaine cepstral avant d'etre quantifies. 

13. Procede selon la revendication 12, dans lequel le liftrage est de la 
forme Cp(i) = [1 + - Yi'] c(i) - (iiVi). ou Cp(i) et c(i) designent le coefficient 
cepstral d'ordre i>0 respectivement avant et apres liftrage, et 72 sont des 
coefficients compris entre 0 et 1, et pi est un coefficient de preaccentuation. 



14. 
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Procede selon la revendication 13. dans lequel ^l = (73 - Yi) c(1). 



15. Precede selon I'une quelconque des revendications 12 a 14, dans 

lequel on recalcule une valeur du module du spectre du signal audio a au 
moins une frequence multiple de la frequence fondamentale (Fq) sur la base 
des coefficients cepstraux transformes et quantifies (cx_sup_q). et on adapte 
i^Hit lifiraae rie facon a minimiser un ecart de module entre I e spectr e du signal 



audio et au moins une valeur de module recalculee. 

16. Precede selon I'une quelconque des revendications 12 a 14, dans 

lequel on recalcule une valeur du module du spectre du signal audio a au 
moins une frequence multiple de la frequencfe fondamentale (Fq) sur la base # 
des coefficients cepstraux transformes et quantifies (cx_sup_q). . on 
retransforme les coefficients cepstraux par liftrage et lissage dans le dbmaine 
cepstral. on calcule des phases minimales ((p(k)) du signal audio a des 
frequences multiples de la frequence fondamentale sur la base des coefficients 
cepstraux retransformes (cxl[n]). et on adapte le liftrage effectu6 avant la 
quantification de fa9on a minimiser un ecart entre le spectre du signal audio et 
au moins une valeur complexe dont le module a une valeur recalculee pour 
une frequence multiple de la frequence fondamentale et dont la phase est 
donnee par la phase minimale calculee pour ladite frequence multiple. 

1 7. Precede selon la revendication 1 6. dans lequel les liftrages effectues 
avant et apres la quantification sont adaptes conjointement de fa^on a ^ 
minimiser ledit ecart. et dans lequel on inclut dans les donnees de codage de la 
composante harmonique des parametres (iLif) representatifs du liftrage adapte 
effectue apres la quantification. 

18. Precede selon I'une quelconque des revendications 15 a 17, dans 
lequel I' ecart minimise pour I'adaptatien du liftrage se rapporte a au moins une 
frequence multiple de la frequence fondamentale (Fq). selectionnee sur la base 
de 1' importance du module du spectre en valeur abselue. 

19. Precede selon I'une quelconque des revendications 15 a 17, dans 
lequel on estime une courbe de masquage spectral du signal audio au moyen 
d'un modele psycho-acoustique, et I'ecart minimise pour I'adaptafion du liftrage 
se rapporte a au moins une frequence multiple de la frequence fondamentale 
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(Fq), selectionnee sur la base de 1' importance du module du spectre 
relativement a la courbe de masquage. 



20. 



Precede selon la revendication 2, dans lequel le spectre du signal 



o 
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20 

O 



audio et les coefficients cepstraux (cx_sup) resultant de la transformation de 
Tenveloppe superieure comprimee sont determines pour des trames 
successives de N echantillons du signal audio qui presentent des 
recouvrements mutuels. et dans lequel lesdites donnees representatives 
d'amplitudes spectrales associees aux frequences multiples de la frequence 
fondamentale estimee (Fq), obtenues au moyen des coefficients cepstraux 
calcules en transformant renveloppe superieure comprimee. sont incluses 
dans le flux numerique de sortie (O) pour seulement un sous-ensemble des 
trames. 

21. Precede selon la revendication 20, dans lequel, pour les trames ne 
faisant pas partie dudit sous-ensemble, on inclut dans le flux numerique de 
sortie (O) des donnees (icx[n-1/2]) de quantification dune erreur d' interpolation 
(ecx[n-1/2]) des coefficients cepstraux resultant de la transformation de 
renveloppe superieure comprimee (LX_sup). 

22. Precede selon la revendication 20. dans lequel. pour les trames ne 
faisant pas partie dudit sous-ensemble, on determine un filtre interpolateur 
optimal (128) pour les coefficients cepstraux resultant de la transformation de 
renveloppe superieure comprimee (LX_sup). et on inclut dans le flux 
numerique de sortie (<D) des donnees (iP) representant ledit filtre interpolateur 
optimal. 

23. Codeur audio, comprenant des moyens pour executer un precede 
selon Tune quelconque des revendications 1 a 22. 
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